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摘 要 
统计 检验 力 是 评估 研究 结果 稳健 性 和 可 重复 性 的 关键 指标 之 一 ， 然 而 在 事件 相关 电位 研究 
中 计算 和 报告 统计 检验 力 的 规范 性 和 完整 性 仍 有 待 加强 。 本 文通 过 梳理 总 结 事件 相关 电位 
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究 中 统计 检验 力 的 影响 因素 、 方 法 以 及 应 用 实例 等 ， 能 为 研究 者 设计 或 预 注册 事件 相关 
电位 研究 方案 等 阶段 计算 和 报告 统计 检验 力 提供 参考 依据 。 
关键 词 脑 电 事件 相关 电位 统计 检验 力 样本 量 试 次 数 
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1 引言 

在 研究 可 重复 性 危机 背景 下 (又 丹 丹 , 王 浩 , YA, 2016; 胡 传 鹏 等 , 2016) ， 研 究 结 果 的 
稳健 性 (robustness) 和 可 重复 性 (reproducibility〉 对 于 心理 学 研究 的 发 展 至 关 重 要 。 统 计 
检验 力 (statistical power〉 是 评估 研究 结果 可 靠 性 和 可 重复 性 的 关键 性 指标 之 一 ， 决 定 了 研 
RAER Bla CE (Fraley & Vazire, 2014; Schweizer & Furley, 2016)。 统 计 检 验 力 是 指 当 零 
假设 (null hypothesis〉 为 假 时 ， 统 计 测 验 正确 拒绝 零 假设 的 概率 ， 一般 用 1-B 表示 ， 通 常 
设置 为 0.8 (Jacob Cohen, 2013; J. Cohen, 1988)。 在 假设 检验 中 ， 统 计 检 验 力 分 析 模 型 的 主 
要 参数 有 : 一 般 由 效应 量 (effect size)、 样 本 量 (sample size )、I 类 错误 (a) FH I KHR 
(P. SHERT 3 个 参数 的 数值 后 ， 即 可 以 计算 出 第 4 个 参数 的 数值 。 以 效应 量 Cohen’s 
d 为 例 ， 在 统计 检验 力 公 式 中 ， 样 本 量 固 定 且 a 固定 (Cohen’s 0.05) 的 情况 下 ， 随 着 统计 
检验 力 降 低 《〈 即 高 B 水 平 )， 效 应 量 也 将 同步 减 小 。 此 外 ， 先 前 研究 已 对 参数 间 的 关系 、 各 
个 参数 与 统计 检验 力 的 关系 以 及 常规 实验 情境 中 的 应 用 示例 进行 了 充分 的 梳理 和 总 结 
(Sommet, Weissman, Cheutin, & Elliot, 2023; 3 SL, 张力 为 , 周 财 亮 , 2023; BA, 李强 , BLE 
EX, 2022; HAT ee, 2010; BATH, 戴 海 琦 , 2011, 2017; 赵 礼 , EEE, 2019; Vankelecom, Loeys, & 
Moerkerke, 2024)， 本 文中 将 不 再 重复 前 述 。 以 统计 检验 力 为 视角 回顾 过 去 60 年 的 研究 发 
现 ， 科 学 研究 领域 的 统计 检验 力 约 为 24% (Smaldino & McElreath, 2016)。 其 中 ， 神 经 科 
学 研究 领域 的 统计 检验 力 在 8%~30% 范围 之 间 (Button et al., 2013)， 意 味 着 在 I 类 错误 为 
5% 的 流行 前 提 下 ， 神 经 科学 研究 领域 的 I KEREKE 70%~92% 之 间 ， 远 远 低 于 倡导 
的 开 类 错误 率 〈Cohen's 20%)， 可 能 导致 大 多 数 科 学 研究 阴性 结果 是 虚假 的 〈Ioannidis， 
2005; Munafo et al., 2017) 。 
脑 电 技术 是 认 知 神经 科学 领域 中 极为 重要 和 被 研究 者 广泛 使 用 的 研究 工具 之 一 。 而 在 
脑 电 研究 中 ， 因 事件 相关 电位 (Event-related potential, ERP) 具有 潜伏 期 和 波形 恒定 的 鲜明 
特征 ， 一 直 被 广泛 用 于 研究 个 体 的 认 知 加 工 过 程 。 然 而 先前 元 分 析 发 现 的 大 量 ERP 研究 并 
未 进行 适宜 的 统计 检验 力 分 析 ， 从 而 导致 研究 的 统计 检验 力 较 低 ， 研 究 的 可 重复 性 差 
(Clayson, Carbine, Baldwin, & Larson, 2019)。 其 原因 可 能 是 与 行为 实验 相 比 ， 脑 电 研究 的 一 
些 特殊 之 处 会 给 统计 检验 力 分 析 带 来 额外 困难 。 

一 方面 ，ERP 研究 一 直 遵 循 实验 内 部 重复 原则 。 在 开展 研究 的 过 程 中 通常 需要 反复 测 
量 被 试 在 特定 条 件 下 的 反应 ， 随 后 对 多 次 测量 结果 进行 平均 。 这 意味 着 对 于 单个 被 试 样 本 ， 
采集 到 的 数据 实际 是 多 试 次 的 。 然 而 ， 先 前 的 ERP 研究 中 进行 统计 检验 分 析 时 ， 研 究 者 较 
多 关注 需要 测量 多 少 个 被 试 〈 被 试 数 量 ，number of subjects)， 在 一 定 程度 上 忽略 了 每 个 被 
试 需 要 完成 多 少 个 试 次 〈 试 次 数量 ，number of trials)， 并 不 加 以 报告 〈Larson & Carbine, 
2017)。 即 使 样本 量 取决 于 被 试 数量 ， 不 透明 的 试 次 数量 也 直接 通过 测量 误差 影响 数据 质量 。 
具体 而 言 ， 在 确定 试 次 数量 时 经 常 使 用 模糊 的 ， 跨 研究 团体 变异 较 大 的 经 验 法 则 而 非 明 确 
的 计算 公式 或 方法 (Jensen & MacDonald, 2023; Larson & Carbine, 2017)， 会 使 得 观察 到 的 
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2.1 被 试 数量 

被 试 数量 指 参与 研究 的 受 试 者 数量 ， 作 为 统计 检验 力 分 析 模 型 的 核心 参数 ， 其 数量 的 
增加 会 显著 提高 研究 统计 检验 力 。 在 ERP 研究 中 ， 小 被 试 数量 是 导致 低 统计 检验 力 的 直接 
原因 。 在 进行 统计 检验 力 分 析 时 ， 相 比 于 试 次 数量 的 增加 ， 被 试 数量 的 增加 对 统计 检验 力 
水 平 提 高 的 作用 更 大 (Gibney et al., 2020)。 例 如 : Gibney A (2020) 研究 发 现 ， 在 被 试 
间 实 验 设 计 中 ， 若 每 组 被 试 数量 为 10 名 ， 则 得 到 真实 显著 结果 的 可 能 性 极 低 。 
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2.4 实验 设计 

实验 设计 是 指 实施 实验 处 理 的 一 个 计划 方案 
与 计划 方案 有 关 的 统计 分 析 〈 如 : 
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数量 加 倍 的 对 统计 检验 力 的 影响 则 较 小 Jensen & MacDonald, 2023). 


一 般 情 况 下 ， 实 验 处 理 水 平 越 多 所 需要 的 被 
1 所 示 ， 在 效应 幅 值 相同 的 情况 下 ， 统 计 检 验 力 的 变化 在 
取决 于 试 次 数量 的 变化 ， 而 在 被 试 间 设 计 中 取决 于 被 试 数量 的 变化 。 换 言 
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例如 : 在 
少 提升 1 倍 ， 而 被 试 


kes uf 
3 ++ a 人 | 效 
fl ae 
i Dn | 
N 水 


被 试 内 设计 被 试 间 设计 


Ds 


1 被 试 内 实验 设计 和 被 试 间 实 验 设计 模拟 结果 的 部 分 关键 内 容 示 意图 。 被 试 内 设计 试 次 数量 对 统计 检验 


力 的 影响 更 显著 〈++)。 被 试 间 设 计 被 试 数量 对 统计 检验 力 的 影响 更 显著 《〈++)。 当 效应 幅 值 存 在 地 板 效 


应 和 /或 天 花 板 效应 《虚线 所 示 ) 时， 即 效应 幅 值 过 大 或 过 小 ， 增 加 被 试 数量 和 /或 试 次 数量 对 统计 检验 力 


的 影响 不 大 。 图 改编 自 Jensen & MacDonald, 2023 

3 ERP 研究 中 统计 检验 力 分 析 方 法 及 应 用 实例 

统计 检验 力 分 析 主 要 基于 虚无 假设 显著 性 检验 (Null Hypothesis Significance Test, 
NHST)， 通 过 对 核心 参数 进行 不 同 组 合计 算 ， 从 而 使 统计 检验 力 水 平 达到 预 设 标准 (刘表 et 
al., 2024)。 在 实证 研究 中 ， 事 先 科 学 合理 地 规划 样本 量 是 统计 检验 力 分 析 的 核心 内 容 之 一 
(Lakens, 2022)。 因 此 ， 在 ERP 研究 中 进行 样本 量规 划 时 ， 研 究 者 需要 在 考虑 时 间 和 科研 经 
费 等 实验 成 本 的 前 提 下 ， 综 合 考量 在 不 同 实验 设计 中 被 试 数量 、 试 次 数量 、 效 应 幅 值 等 影 
响 因 素 在 统计 检验 力 上 的 相互 关系 ， 从 而 获得 样本 量规 划 的 最 优 解 。 为 了 获得 这 一 最 优 
解 ， 研 究 者 尝试 通过 事后 模拟 (Post-Hoc Simulations )、 蒙 特 卡 洛 模拟 (Monte Carlo 
Simulations) 和 检验 力 等 高 线 图 (Power Contours Plot) 等 方法 分 析 ERP 研究 中 的 统计 检验 
力 。 同 时 ， 上 述 方法 各 有 侧重 点 : 事后 模拟 主要 关注 在 研究 中 获得 ERP 成 分 的 最 低 试 次 数 
(Thigpen, Kappenman, & Keil, 2017); 蒙特 卡 洛 模拟 则 侧重 于 通过 灵活 组 合 被 试 数量 、 试 次 
数量 、 效 应 幅 值 和 实验 设计 等 参数 以 得 到 不 同 的 统计 检验 力 分 析 模 型 ， 并 在 得 到 模型 后 进 
行 统计 检验 力 分 析 (Boudewyn et al., 2018); 检验 力 等 高 线 图 则 在 充分 考虑 测验 精度 
(measurement precision) 和 样本 标准 差 (Sample Standard Deviation, o s) 影响 的 前 提 下 
(Nebe et al., 2023)， 动 态 调整 被 试 数量 和 试 次 数量 从 而 得 到 适宜 的 统计 检验 力 (Baker et al., 
2021)。 此 外 ， 使 用 上 述 方法 进行 统计 检验 力 分 析 时 需要 在 相应 的 预 实验 脑 电 数据 或 者 已 有 
的 脑 电 数据 集 上 进行 。 
3.1 事后 模拟 

事后 模拟 的 目的 是 在 统计 检验 力 、 被 试 数量 等 相同 的 情况 下 ， 确 定 ERP 研究 中 获得 特 
定 稳健 ERP 成 分 所 需 的 最 少 试 次 数量 。 该 方法 的 具体 步 又 是 : 通过 进行 预 实验 获得 研究 需 


要 的 ERP 成 分 ， 然 后 将 已 经 获得 稳健 ERP 成 分 的 试 次 数量 作为 总 体 CN)， 随 后 从 总 体 中 
5 


ry 


> 


抽取 一 定数 量 试 次 的 脑 电 数据 作为 子 样本 (n)， 随 后 对 子 样本 进行 平均 ， 并 将 平均 样本 数 
据 后 ERP 成 分 与 总 体 样本 的 ERP 成 分 进行 对 比 。 不 断 重 复 上 述 过 程 ， 直 到 在 子 样本 中 得 


到 与 总 体 相当 的 ERP 成 分 ， 并 确定 子 样本 的 试 次 数量 ， 该 试 次 数量 大 小 即 为 获得 该 ERP 
成 分 所 需 的 最 少 试 次 数量 。 总 体 与 子 样本 的 相似 性 通过 相关 系数 、 内 部 一 致 性 系数 (Olvet 
& Hajcak, 2009; Thigpen, Kappenman, & Keil, 2017)、 重 测 信 度 〈Hufftmeijer Bakermans- 


Kranenburg, Alink, & Van IJzendoorn, 2014; Segalowitz & Barnes, 1993) 以 及 等 值 性 (Marco- 


Pallares, Cucurell, Münte, Strien, & Rodriguez-Fornells, 2011; Pontifex et al., 2010) 等 指标 进 


行 评估 。 例 如 : 以 内 部 一 致 性 系数 为 例 ， 当 内 部 一 致 性 系数 超过 0.90 表示 一 


致 性 极 高 ， 


0.70-0.90 表示 较 高 的 一 致 性 ，0.50-0.70 表示 中 等 程度 的 一 致 性 ， 而 低 于 0.50 表示 一 致 性 


ee 
、N1 和 P3 成 分 的 最 低 试 次 数量 进行 模拟 。 在 进行 事后 模拟 时 ， 抽 取 不 同 的 试 次 数 和 


ci 


(10~80, ZARA 10) FA HH AREAS, Be ae EASE DAE LY Ja MR E 
均 振 幅 值 、 信 噪 比 等 ， 并 与 总 体 〈80 次 左右 ) BUPA SDR AP. (TR EEE 
行内 部 一 致 性 比较 。 结 果 发 现 ， 当 子 样本 中 的 试 次 数量 到 达 40 次 或 以 上 时 ， 子 样本 与 总 样 


IK 


本 ERP 成 分 的 内 部 一 致 性 系数 达到 0.8 以 上 。 表明 ， 实 际 研究 中 至 少 40 个 试 次 就 能 得 


到 相对 稳健 的 P1、N1 和 P3 成 分 ， 并 不 需要 80 个 试 次 。 


在 应 用 实例 方面 ， 事 后 模拟 被 运用 于 ERP 研究 领域 中 确定 错误 相关 负 波 (error-related 
negativity , ERN), error positivity (Pe), N100, N200, vertex positive potential (VPP) 
/N170， 失 匹配 负 波 (mismatch negativity, MMN), 反馈 相关 负 波 (feedback-related 
negativity, FRN), 晚期 正成 分 Cate positive potential, LPP) 和 P300 等 ERP 成 分 的 试 次 
数量 (Duncan et al., 2009; Fischer, Klein, & Ullsperger, 2017; Huffmeijer et al., 2014; Jill Cohen 


& Polich, 1997; Larson, Baldwin, Good, & Fair, 2010; Marco-Pallares et al., 2011; Olvet & 
Hajcak, 2009; Pontifex et al., 2010; Rietdijk, Franken, & Thurik, 2014; Segalowitz & Barnes, 


1993; Steele et al., 2016; Thigpen et al., 2017). 


事后 模拟 能 确定 获得 稳健 ERP 成 分 所 需 的 最 少 试 次 数量 ， 可 以 在 一 定 程度 上 降低 相关 


md 


3.2 蒙特 卡 洛 模拟 


究 的 时 间 成 本 。 然 而 ， 很 多 时 候 ， 研 究 的 目标 不 仅仅 在 于 获得 稳健 的 ERP 成 分 ， 可 能 还 
需要 找到 不 同 条 件 间 的 差异 ， 但 事后 模拟 不 能 量化 特定 的 实验 效应 的 稳定 性 


相 较 于 事后 模拟 ， 蒙 特 卡 洛 模拟 能 在 单个 模型 中 同时 获得 多 个 参数 的 统计 检验 力 估 
计 。 在 ERP 研究 中 ， 研 究 者 通过 对 被 试 数量 、 试 次 数量 、 效 应 幅 值 和 实验 设计 等 进行 动态 


组 合 ， 从 而 灵活 定义 统计 检验 力 分 析 模 型 。 蒙 特 卡 洛 模 拟 的 主要 原理 是 通过 


指定 虚拟 总 体 


(分 布 ) 以 生成 虚拟 样本 (抽样 )。 在 关于 ERP 研究 的 蒙特 卡 洛 模拟 中 ， 研 究 者 使 用 预 实 
验 或 者 先前 研究 采集 到 的 脑 电 数据 作为 指定 总 体 ， 并 添加 了 人 工效 应 Cartificial effects), 
从 而 为 被 试 内 和 被 试 间 的 分 析 获 取 真 实 的 效应 幅 值 (Kiesel, Miller, Jolicoeur, & Brisson, 


2008; Smulders, 2010; Ulrich & Miller, 2001) 。 基 本 步骤 为 : 在 被 试 数量 样本 中 有 放 回 的 随 
机 抽取 nm 个 被 试 。 然 后 在 这 些 抽取 出 来 的 被 试 ， 他 们 各 自 的 所 有 有 效 试 次 中 随机 抽取 2 组 


数据 ， 每 组 m Md. BER BPP A 
应 的 效应 幅 值 。 之 后 用 相应 的 统计 分 析 方 法 进行 差异 
量 和 效应 幅 值 的 组 合 条 件 进 行 1000 次 模拟 ， 计 算 每 和 
著 的 可 能 性 。 例 如 : Boudewyn “ A (2018) 对 ERN 成 分 进行 蒙特 卡 洛 模拟 。 其 主要 方法 
是 通过 让 40 名 被 试 完成 400 个 Trials 的 Flanker (1 
集 到 的 40 名 被 试 的 脑 电 数据 ， 采 用 蒙特 卡 洛 模拟 的 方式 模拟 了 1000 个 数据 ， 最 后 对 1000 
个 数据 进行 分 析 比 较 。 蒙 特 卡 洛 模拟 结果 表明 ， 当 被 试 数量 超过 10 个 时 ， 只 需要 6 个 试 
次 就 可 以 获得 稳定 的 统计 效力 在 0.8 以 上 的 ERN 成 分 。 在 不 同 实验 设计 中 ， 在 不 同 效应 幅 
值 条 件 下 所 需要 的 被 试 数量 和 试 次 数量 显著 不 同 。 在 被 试 内 实验 设计 中 ， 要 达到 0.8 以 上 
的 统计 检验 力 ， 当 被 试 数量 均 为 20 人 时 ， 在 效应 由 


Hy Za, Wap 


性 检验 。 对 于 每 和 


组 数据 分 别 相 加 和 /或 相 减 相 


' 组 合 条 件 在 1000 次 的 模拟 中 达到 显 


被 试 数量 、 试 次 数 


F 务 ， 并 同步 采集 脑 电 数据 。 随 后 基于 采 


EX 4 uV 条 件 时 ， 只 需要 8 个 试 次 ; 


而 当 效 应 幅 值 为 2 kV 时 ， 需 要 16 个 试 次 。 在 被 试 间 实 验 设计 中 ， 要 达到 0.8 以 上 的 统计 
效力 ， 当 试 次 数量 均 为 6 个 时 ， 在 效应 幅 值 为 7 pV 条 件 时 ， 只 需要 16 个 被 试 ， 而 当 效 应 


(Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & 
Ngiam et al., 2021)。 同 时 ， 为 了 能 让 研究 者 在 实际 研究 中 应 | 
提供 了 在 线程 序 ERP Power Calculator 〈 访 问 链接 为 : 


幅 值 为 5 pV 条 件 时 ， 需 要 32 个 被 试 。 
在 应 用 实例 上 ， 蒙 特 卡 洛 模拟 分 析 被 运 
N170、MMN、P3、N2pc、N400、CDA、N1、Tb、P2 等 ERP 成 分 


于 事件 相关 电位 研究 领域 中 LRP、ERN、 
的 统计 检验 力 分 析 
MacDonald, 2023; 
NZH, Hall FA (2023) 


https://bradleynjack.shinyapps.io/ErpPowerCalculator/)， 事 件 相 关 电 位 研究 中 听觉 领域 的 研究 
者 可 以 通过 选择 特定 的 ERP 成 分 (NWTb/P2)、 试 次 数量 (20~1000)、 被 试 数 量 
(10~100)、 效 应 幅 值 (0~3 pgV)、 实 验 设 计 〔 被 试 内 /被 试 间 )、alpha 水 平 
(0.05/0.01/0.005/0.001) 等 参数 来 计算 研究 的 统计 检验 力 。 在 视觉 工作 记忆 领域 ，Ngiam 
SEA (2021) 提供 了 在 线程 序 CDA Power Calculator (Vj lal BEEN: 
https://williamngiam.shinyapps.io/CDAPower/)， 可 以 通过 选择 感 兴趣 的 效应 (稳健 CDA 成 


分 /记忆 负荷 2 vs 4/ 记 忆 负 蓓 2 v.s 6), RIY 
参数 之 间 的 组 合 来 计算 相应 的 指标 。 
为 : https:/osfio/wv3da/) 公开 共享 
个 ERP 成 分 通过 动态 组 合 被 试 数量 、 


计 检 验 力 的 代码 资源 。 
3.3 检验 力 等 高 线 图 


a ES ee. F 
Jensen 和 MacDonald (2023) Æ OSF FE G) [al HERE 


试 次 数 


量 、 统 计 检 验 力 等 


uu 


J *} LRP. ERN, N170. MMN, P3, N2pc. N400 & 
、 效 应 幅 值 以 及 实验 设计 等 参数 模拟 计算 统 


如 前 所 述 ， 除 被 试 数量 、 试 次 数量 、 效 应 幅 值 和 实验 设计 外 ， 我 们 应 再 次 关注 测量 精 


度 〈 真 实 分 数 / 总 分 数 跨 试 次 的 均值 )， 即 


过 测量 误差 影响 统计 检验 力 的 关键 指标 (Nebe et 
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al., 2023)。 在 该 部 分 中 ， 测 量 精度 指 重 复 测 量具 有 恒定 真实 得 分 的 变量 并 获得 相似 结果 的 


在 时 间 、 个 体 间 和 试 次 间 的 产生 误差 ， 而 这 一 测量 误差 的 增加 会 降低 研究 的 统 
(Nebe et al., 2023)。Baker 等 (2021) 提出 了 检验 力 等 高 线 图 ， 在 考虑 个 体内 测量 


能 力 (Cumming, 2014)， 其 与 上 述 试 次 数量 、 工 具 、ERP 成 分 差异 等 多 个 因素 相关 。 在 ERP 
研究 中 ， ERP 成 分 的 潜伏 期 和 波形 并 不 具有 严格 的 一 致 性 和 稳定 性 ， 从 而 导致 ERP 成 分 


计 检 验 力 
误差 


(within-participant variance, ow) 和 个 体 间 测量 误差 (between-participants variance, Op) 


等 样本 标准 差 约 束 下 ， 动 态 调整 被 试 数量 和 试 次 数量 并 计算 相应 的 统计 检验 力 ， 


直到 计算 


的 结果 值 达 到 预 设 标准 。 并 将 相同 检验 力 的 被 试 数量 (N)〉 和 试 次 数量 (k) 组 合成 的 点 连 


ral 


成 等 高 线 ， 用 多 条 等 高 线 表示 不 同 检 验 力 水 平 (Baker et al., 2021)。 在 实际 研究 中 ， 研 究 者 


可 以 通过 检验 力 等 高 线 在 被 试 数量 和 试 次 数量 的 权衡 过 程 中 找到 一 个 检验 力 的 


里 想 结合 


: 


点 ， 从 而 根据 实际 情况 选取 适宜 的 被 试 数量 和 试 次 数量 。 检 验 力 等 高 线 在 保证 


样本 量 满足 


由 


统计 检验 力 等 要 求 的 同时 又 尽 可 能 降低 研究 成 本 。 例 如 : Baker 等 人 (2021) 基于 已 有 的 
脑 电 数据 ， 对 得 到 P100、N600 成 分 被 的 试 数 量 和 试 次 数量 进行 重 抽样 ， 并 绘制 相应 的 统 


计 检 验 力 等 高 线 。 结 果 发 现 ， 在 同等 统计 检验 力 水 平 下 ， 当 样本 偏差 较 小 时 ， 


P100 成 分 的 


统计 检验 力 随 被 试 数量 和 试 次 数量 的 增加 而 增加 。N600 成 分 的 统计 检验 力 很 大 程度 上 取决 


于 被 试 数量 ， 而 当 试 次 数量 相对 较 少 (k<200) 时 ， 可 以 通过 增加 试 次 数量 来 


lm 


在 应 用 实例 上 ， 统 计 检验 力 等 高 线 图 被 运用 于 计算 事件 相关 电位 研究 领域 


降低 被 试 数 


中 P100、 


P200, N600 等 ERP 成 分 以 及 Alpha 频段 (8~12 Hz) 的 被 试 数量 和 试 次 数量 的 理想 结合 点 
(Baker et al., 2021)。 同 时 ， 为 了 方便 研究 者 使 用 该 方法 来 确定 实际 研究 中 的 被 试 数量 和 


试 次 数量 ，Baker 等 人 (2021) 等 人 开发 了 在 线程 序 Power contour estimation ( 


访问 链接 


为 : https://shiny.york.ac.uk/powercontours/)， 通 过 输入 被 试 数量 、 试 次 数量 、alpha 水 平 、 


均值 差异 、 被 试 内 标准 差 、 被 试 间 标 准 差 、 招 更 成 本 等 参数 来 计算 研究 的 统计 
及 实际 研究 中 被 试 数量 和 试 次 数量 的 理想 结合 点 。 
4 ERP 研究 中 统计 检验 力 分 析 的 挑战 

已 有 的 研究 系统 地 探讨 被 试 数量 、 试 次 数量 、 效 应 幅 值 和 实验 设计 等 因素 通 


检验 力 ， 以 


过 交互 方 


式 影响 统计 检验 力 (Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & 


MacDonald, 2023; Ngiam et al., 2021 )。 但 在 未 来 的 研究 中 还 应 该 关注 以 下 四 点 : 
4.1 关注 研究 中 可 能 出 现 的 天 花 板 效应 和 /或 地 板 效应 
先前 研究 发 现 ， 统 计 检 验 力 会 随 着 被 试 数量 和 试 次 数量 的 变化 而 变化 ， 
力 出 现 天 花 板 效应 或 地 板 效 应 时 ， 被 试 数量 和 试 次 数量 的 变化 对 统计 检验 力 的 
其 微 了 (Boudewyn et al., 2018)。 
4.2 关注 事件 相关 电位 研究 中 信 噪 比 对 统计 检验 力 的 影响 
述 测量 精度 的 考量 只 主要 关注 试 次 数量 这 一 核心 因素 ， 但 其 他 因素 所 导 


all 


而 当 统 计 检验 


影响 就 微 乎 


致 的 测量 精 


度 的 降低 同样 也 不 容 忽视 。 脑 电 研究 强调 的 信 品 比 〈 噪 声 水 平 )， 即 测量 精度 问题 ， 同 样 会 


导致 统计 检验 力 的 降低 。ERP 研究 中 的 信 噪 比 会 受到 研究 范式 《实验 方案 )、 脑 电 数 据 采 集 


q 


& Hämäläinen, 2017) 、 特 征 了 


[有 具 因 素 ， 如 : 不 同 的 采集 环境 和 设备 、 电 阻 水 平等 ) (Kappenman & Luck, 2010; 
Laszlo, Ruiz-Blondet, Khalifian, Chu, & Jin, 2014; Luck & Kappenman, 2017; Picton, 2010; Puce 


[ 程 /处 理 方法 (Clayson, Baldwin, Rocha, & Larson, 2021; 


Delorme, 2023; G. Zhang, Garrett, & Luck, 2024a, 2024b; G. Zhang, Garrett, Simmons, Kiat, & 
Luck, 2023; G. Zhang & Luck, 2023; Sandre et al., 2020)、 以 及 统计 检验 方法 (Luck & 


pelin, 2017) 的 影响 。 然 而 ， 蒙 特 卡 洛 模拟 无 法 有 效 的 模拟 出 每 个 脑 电 数据 中 真实 的 信 


Gas 


WE 
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几 的 是 ， 对 于 特征 工程 /处 理 方法 ， 研 究 者 主观 或 不 经 意 的 决策 (如 ; 采 


IAS Fr A) ah 


与 分 析 管 道 等 ) 也 可 能 会 导致 假 阳 性 结果 〈Luck & Gaspelin, 2017). Alt, 


上 述 列 出 的 影响 信 品 比 的 其 他 因素 同样 是 未 来 统计 检验 力 研 究 探索 的 一 个 重要 方向 。 
需要 在 更 复杂 的 实验 情境 进一步 验证 事件 相关 电位 研究 中 统计 检验 力 的 影响 因素 

已 有 的 研究 模拟 了 被 试 内 和 被 试 间 实 验 设计 中 被 试 数量 、 试 次 数量 以 及 效应 幅 值 与 统 
计 检 验 力 的 关系 (Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & 
MacDonald, 2023; Ngiam et al., 2021)。 由 于 脑 电 数据 质量 在 研究 范式 、 被 试 间 、 测 量 指标 
之 间 会 有 差异 (G. Zhang & Luck, 2023)， 因 此 ， 已 有 的 研究 结论 是 否 适 用 于 更 复杂 的 实验 设 
(如 ; 混合 实验 设计 等 )、 分 析 方 法 〈 如 : 多 因素 分 析 、 大 规模 单 变量 分 析 、 混 合 效应 模 
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型 等 ) 以 及 不 同 的 样本 条 


4.4 


H, 
N o 


标 、 


验 的 影响 。 因 此 未 来 的 研究 中 应 该 更 加 充分 考虑 和 衡量 ERP 研究 中 影响 统计 检验 力 的 其 它 
潜在 因素 ， 进 一 步 发 展 和 推出 更 具有 广泛 适用 的 统计 检验 分 析 方 法 和 计算 工具 。 


{in 


~ 


或 者 在 ERP 实验 中 采用 时 频 分 


f 体 、 实 验 范式 中 ， 仍 需 进一步 验证 。 
在 推广 和 应 用 已 有 研究 结论 时 要 持 审慎 态度 

因为 现 有 的 研究 结论 来 源 是 对 特定 ERP 成 分 平均 振幅 幅 值 进行 数据 模拟 计算 后 的 结 
数据 模拟 计算 的 结果 是 一 种 相对 理想 的 结果 ， 因 此 可 能 无 法 推广 到 与 模拟 计算 数据 集 
有 明显 区 别 的 其 它 数据 集 或 数据 分 析 方 法 中 。 如 : 在 ERP 研究 中 将 成 分 潜伏 期 作为 测量 指 


i 等 方法 时 ， 除 了 幅度 ， 可 能 还 要 考虑 相位 等 对 统计 检 


5 ERP 研究 中 统计 检验 力 分 析 未 来 发 展 方向 与 建议 


KRH 


在 对 ERP 研究 结果 稳健 性 和 可 习 


E 复 性 受到 挑战 的 现状 的 思考 中 ， 越 来 越 多 研究 者 开始 


EFE 低 统计 检验 力 的 研究 所 带 来 的 消极 影响 ， 并 提出 事先 进行 统计 检验 力 分 析 来 规避 这 一 


风险 。 在 ERP 研究 中 ， 研 究 的 统计 检验 力 对 作者 和 读者 都 具有 重要 意义 ， 如 何在 研究 者 在 
设计 和 /或 预 注册 研究 方案 阶段 ， 充 分 发 挥 ERP 研究 统计 检验 力 分 析 的 积极 作用 ， 不 断 优 


化 而 


FAR, PMR ART SE 
5.1 科学 合理 的 规划 样本 量 


究 上 投入 成 本 的 可 能 性 ， 需 要 各 方 人 员 共同 努力 。 


在 进行 实验 设计 时 ， 研 究 者 就 需要 以 适宜 的 方式 提前 规划 好 样本 量 。 对 于 样本 量 的 规 


划 方 案 是 统计 检验 力 分 析 的 核心 内 容 之 一 ， 关 于 样本 量规 划 的 一 般 原则 已 有 前 人 研究 总 结 


完善 ， 不 


洛 模拟 或 者 检验 力 等 高 线 图 ; 


FIA (Lakens, 2022; Sommet et al., 2023)。 在 开展 ERP 研究 时 ， 建 议 使 用 蒙特 卡 


行 样本 量规 划 (Baker et al., 2021; Boudewyn et al., 2018; Gibney 


et al., 2020; Hall et al., 2023; Jensen & MacDonald, 2023; Ngiam et al., 2021)。 此 外 ， 除 了 通 


过 事先 规划 的 相 
HACE HS, 2023). 
5.2 准确 
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真 报告 推广 性 结论 


需要 考量 的 实验 条 件 


完 者 需要 认识 到 脑 电 帮 


究 ， 特 别 是 ERP 研究 的 重复 性 问题 。 由 于 认 知 神经 科学 


件 和 参数 ， 为 可 本 
2021)。 同 时 


5.3 X 


研究 者 
(例如 兴趣 区 域 与 通道 位 置 ) 都 需要 提供 相 实 的 依据 (Dien, 2017)， 避 免 基于 已 有 数据 的 后 
验 分 析 (data-driven). 
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statistical power analysis of event-related potential 


studies: influencing factors and methods 


Abstract 

Statistical power is one of the key indicators for assessing the robustness and replicability of 
research results. However, the standardization and completeness of calculating and reporting 
statistical power in event-related potential studies still need improvement. Researchers need to pay 
attention to the statistical power of the study and the impact of factors such as the number of subjects, 
number of trials, effect magnitude, and study design on the statistical power during the design and/or 
pre-registration stage of the research plan,so as to continuously optimize the research plan. Reduce 
the possibility of investing in low-level statistical power studies. 


Key words: EEG; event-related potential; statistical power; sample size; number of trials 


